论文相关信息

本文内容取自[1]

期刊公众号上本论文的介绍链接


研究意义

在人机共享自主中,人和智能机器以互补的能力共同完成实时控制任务,以实现双方单独控制无法达到的性能。以无人机降落为例,对于人类而言,难以同时实现高度、速度、姿态等的多维控制;对于自动降落系统而言,难以让其理解什么是好的、安全的着陆,以及如何在不同的复杂环境下实现着陆。人机共享自主作为应对不确定复杂环境的可行方法已被应用于很多领域中,比如机器遥操作、半自主驾驶、康复外骨骼等。

现有的许多人机共享自主方法倾向于假设人的决策始终“有效”,即这些决策促进了任务的完成,且有效地反映了人类的真实意图。然而,在现实中,由于疲劳、分心等多种原因,人的决策会在一定程度上“无效”,不满足这些方法的基本假设,导致方法失效,进而导致任务失败。

本文工作

本文提出一种基于深度强化学习算法的人机共享自主方法,使系统在人类决策长期无效的情况下仍能完成正确的目标。具体来说,利用长短时记忆网络推断人类意图,然后利用深度强化学习算法训练从系统状态和人类决策到决策价值的端到端映射,以判断人类决策是否无效。


图1 非全时有效人类决策下的人机共享自主方法框图

强化学习算法计算的累积奖励值衡量了该决策行为可以给当前任务带来的利益的多少,我们默认人类和机器都在朝着更高的奖励值努力,因此在人的决策的奖励值下降一定程度后,该决策被判定为无效。当人类决策连续多次无效时,系统将由机器单独控制,完成从之前的有效决策中推断出的任务目标,以防止人的无效决策影响任务进程。


图2 非全时有效人类决策下的人机共享自主方法流程图

本文主要贡献可总结为四点:

  • 一种人机共享自主方法,使得在人类决策长期无效的情况下,系统也能完成正确的目标;
  • 一种无需额外信息就能判断人类决策有效性的方法;
  • 一种区分无效的人类决策和人的意图改变的方法;
  • 一种仲裁方法,考虑了人类的无效决策和智能机器的不确定性。

实验结果

第一个实验为验证本文所提方法与其他不考虑人类决策无效性的人机混合决策方法在任务性能上的差异。实验结果显示当人的输入全部有效时,我们方法的成功率略高于普通的人机共享自主方法,而当存在持续的无效人类决策时,我们方法的成功率显著高于一般方法。另一方面,在人的决策均有效的情况下,我们的方法可以在更短的时间内完成任务,但当人的决策部分无效时,我们的方法可以持续更长的时间,使得系统不会在失去来自外部的有效控制命令后立即崩溃。


图4 4(a):人的决策全部有效下的任务成功率,4(b):人的决策部分无效下的任务成功率,4(c):人的决策全部有效下的每幕平均步数.4(d):人的决策部分无效下的每幕平均步数

第二个实验为验证方法能否识别玩家的目标变化,并帮助玩家完成新的目标。本实验设置了两个任务:将着陆器可以移动的垂直距离分成两个相等的部分,玩家需要在这两个空间中分别改变目标并尝试成功着陆。Task1是玩家在上半空间改变目标,Task2是在下半空间改变目标。


图6 6(a):十位玩家完成两项任务的成功率.6(b):完成两项任务的典型着陆轨迹.6(c):玩家在上半空间改变目标的某次成功着陆轨迹。

图6为两项任务的成功率和典型着陆轨迹,其结果显示出两项任务的本质区别在于导致动作距离变大的原因不同。后者的较大行动距离是由玩家的随机操作造成,随机输入之间没有相关性和逻辑,导致机器不能从中得到信息。但在Task1中,玩家基于环境状态的有目的控制行为和意图推理模块的延迟识别产生了较大的动作距离。机器从这些输入中推理出一个新的目标,并基于这个新目标获得了较小的动作距离。这是区分无效的人类行为和人类意图变化的关键因素,即输入是否包含有效的信息。

参考文献

  1. [1]游诗艺, 康宇, 赵云波, and 张倩倩, “非全时有效人类决策下的人机共享自主方法,” 中国科学:信息科学, vol. 52, no. 12, pp. 2165–2177, 2022.

相关科研项目

人机系统中人与机器的自主性边界及其切换策略研究

复杂环境下非完全信息博弈决策的智能基础模型研究